OBJECTIF : Se familiariser avec la base de données
# Import des données
data <- read.csv("data/Broken-Devices-Data1-xlsx.csv",row.names = 1) # base de données sur laquelle on va appliquer tous les changements
Broken_Devices_Data <- read.csv("data/Broken-Devices-Data1-xlsx.csv",row.names = 1) # base de données initiale sur laquelle on pourra se référer pour voir si les chgts ont bien été appliqués
# nombre d'observations
nb_obs <- nrow(data) # 1005
# nombre de variables
nb_var <- ncol(data) # 163
La fonction summary() en R fournit un résumé statistique de base pour chaque colonne d’un DataFrame. Ce résumé est utile pour obtenir une vue d’ensemble rapide des données et peut inclure des statistiques descriptives différentes selon le type de données des colonnes (numériques ou catégorielles).
## SEXE AGE Tage5 Hommes_Age
## Min. :1.000 Min. :15.00 Min. :1.000 Min. :1.000
## 1st Qu.:1.000 1st Qu.:32.00 1st Qu.:2.000 1st Qu.:2.000
## Median :2.000 Median :47.00 Median :3.000 Median :3.000
## Mean :1.536 Mean :46.55 Mean :3.198 Mean :3.202
## 3rd Qu.:2.000 3rd Qu.:62.00 3rd Qu.:4.000 3rd Qu.:4.000
## Max. :2.000 Max. :80.00 Max. :5.000 Max. :5.000
## NA's :539
## Femmes_Age DEP UDA9 HAB7
## Min. :1.000 Min. : 1.00 Min. :1.000 Min. :1.000
## 1st Qu.:2.000 1st Qu.:31.00 1st Qu.:2.000 1st Qu.:2.000
## Median :3.000 Median :59.00 Median :5.000 Median :5.000
## Mean :3.195 Mean :52.93 Mean :4.936 Mean :4.291
## 3rd Qu.:4.000 3rd Qu.:75.00 3rd Qu.:7.000 3rd Qu.:6.000
## Max. :5.000 Max. :95.00 Max. :9.000 Max. :7.000
## NA's :466
## ACTIVITE INACTIFS QACTIF CSP9
## Min. :1.000 Min. :1.000 Min. : 1.00 Min. :1.000
## 1st Qu.:1.000 1st Qu.:3.000 1st Qu.: 7.00 1st Qu.:4.000
## Median :1.000 Median :3.000 Median :15.00 Median :5.000
## Mean :1.439 Mean :3.603 Mean :12.62 Mean :5.581
## 3rd Qu.:2.000 3rd Qu.:5.000 3rd Qu.:17.00 3rd Qu.:7.000
## Max. :2.000 Max. :7.000 Max. :18.00 Max. :9.000
## NA's :564 NA's :401
## CSP5 NIVETUDES NPF5 REQUIPEMENT
## Min. :1.000 Min. :1.000 Min. :1.000 Length:1005
## 1st Qu.:1.000 1st Qu.:2.000 1st Qu.:2.000 Class :character
## Median :2.000 Median :3.000 Median :2.000 Mode :character
## Mean :2.334 Mean :2.942 Mean :2.548
## 3rd Qu.:3.000 3rd Qu.:4.000 3rd Qu.:3.000
## Max. :5.000 Max. :7.000 Max. :5.000
##
## APPETENCEDIGIT QUALIFANCIENTEL DUREE_USAGE_ANCIEN_TEL RMOTIV_SMART
## Length:1005 Min. :1.000 Min. :1.000 Length:1005
## Class :character 1st Qu.:1.000 1st Qu.:3.000 Class :character
## Mode :character Median :1.000 Median :4.000 Mode :character
## Mean :1.108 Mean :4.099
## 3rd Qu.:1.000 3rd Qu.:5.000
## Max. :3.000 Max. :7.000
## NA's :17
## RETAT_ANCIEN_TEL NB_SMARTPHONE CONTEXTE_USAGE_SMARTPHONE MARQMOB1
## Length:1005 Min. :1.000 Min. :1.000 Min. : 1.000
## Class :character 1st Qu.:1.000 1st Qu.:1.000 1st Qu.: 1.000
## Mode :character Median :1.000 Median :1.000 Median : 9.000
## Mean :1.081 Mean :1.316 Mean : 6.875
## 3rd Qu.:1.000 3rd Qu.:1.000 3rd Qu.: 9.000
## Max. :3.000 Max. :3.000 Max. :13.000
## NA's :37 NA's :37 NA's :37
## OS ACQUISITIONTEL DATEOBTENTIONSMART_1 DATEOBTENTIONSMART_2
## Min. :1.000 Min. :1.000 Min. :2000 Min. : 1.00
## 1st Qu.:1.000 1st Qu.:3.000 1st Qu.:2020 1st Qu.: 3.00
## Median :2.000 Median :3.000 Median :2022 Median : 6.00
## Mean :1.739 Mean :2.748 Mean :2021 Mean :10.89
## 3rd Qu.:2.000 3rd Qu.:3.000 3rd Qu.:2022 3rd Qu.:10.00
## Max. :4.000 Max. :8.000 Max. :2023 Max. :99.00
## NA's :37 NA's :37 NA's :37 NA's :37
## ETATSMARTPHONE UTILISATIONSMARTOCCAS RIDENTIFICATION_PROBLEMES
## Min. :1.000 Min. :1.000 Length:1005
## 1st Qu.:1.000 1st Qu.:2.000 Class :character
## Median :1.000 Median :3.000 Mode :character
## Mean :1.278 Mean :3.864
## 3rd Qu.:1.000 3rd Qu.:6.000
## Max. :4.000 Max. :7.000
## NA's :37 NA's :917
## GENE_PROBLEMES_A1 GENE_PROBLEMES_A2 GENE_PROBLEMES_A3 GENE_PROBLEMES_A4
## Min. :1.000 Min. :1.000 Min. :1 Min. :1.00
## 1st Qu.:1.000 1st Qu.:2.000 1st Qu.:1 1st Qu.:2.00
## Median :2.000 Median :2.000 Median :2 Median :2.00
## Mean :2.225 Mean :2.235 Mean :2 Mean :2.20
## 3rd Qu.:3.000 3rd Qu.:3.000 3rd Qu.:3 3rd Qu.:2.75
## Max. :4.000 Max. :4.000 Max. :4 Max. :4.00
## NA's :965 NA's :971 NA's :981 NA's :995
## GENE_PROBLEMES_A5 GENE_PROBLEMES_A6 GENE_PROBLEMES_A7 GENE_PROBLEMES_A8
## Min. :1.000 Min. :1.000 Min. :1.000 Min. :1.00
## 1st Qu.:1.000 1st Qu.:2.000 1st Qu.:1.000 1st Qu.:1.00
## Median :2.000 Median :2.000 Median :2.000 Median :2.00
## Mean :1.917 Mean :2.308 Mean :1.769 Mean :1.75
## 3rd Qu.:2.250 3rd Qu.:3.000 3rd Qu.:2.000 3rd Qu.:2.00
## Max. :4.000 Max. :4.000 Max. :3.000 Max. :3.00
## NA's :993 NA's :979 NA's :979 NA's :993
## GENE_PROBLEMES_A9 GENE_PROBLEMES_A10 GENE_PROBLEMES_A11 GENE_PROBLEMES_A12
## Min. :1.000 Min. :1.00 Min. :1.000 Min. :1.000
## 1st Qu.:1.000 1st Qu.:1.00 1st Qu.:2.000 1st Qu.:2.000
## Median :1.000 Median :2.00 Median :2.000 Median :2.000
## Mean :1.454 Mean :1.79 Mean :1.878 Mean :2.286
## 3rd Qu.:2.000 3rd Qu.:2.00 3rd Qu.:2.000 3rd Qu.:2.500
## Max. :3.000 Max. :4.00 Max. :3.000 Max. :4.000
## NA's :972 NA's :891 NA's :964 NA's :998
## GENE_PROBLEMES_A13 GENE_PROBLEMES_A14 GENE_PROBLEMES_A15 GENE_PROBLEMES_A16
## Min. :1.000 Min. :1.00 Min. :1.000 Min. :1.000
## 1st Qu.:2.000 1st Qu.:1.00 1st Qu.:1.000 1st Qu.:2.000
## Median :2.000 Median :2.00 Median :1.000 Median :2.000
## Mean :1.917 Mean :1.96 Mean :1.542 Mean :2.111
## 3rd Qu.:2.000 3rd Qu.:3.00 3rd Qu.:2.000 3rd Qu.:2.000
## Max. :3.000 Max. :4.00 Max. :3.000 Max. :4.000
## NA's :993 NA's :980 NA's :981 NA's :987
## GENE_PROBLEMES_A17 GENE_PROBLEMES_A18 GENE_PROBLEMES_A19 GENE_PROBLEMES_A20
## Min. :2.0 Min. :1.000 Min. :1.000 Min. :1.000
## 1st Qu.:2.0 1st Qu.:1.000 1st Qu.:1.000 1st Qu.:1.000
## Median :3.0 Median :2.000 Median :2.000 Median :2.000
## Mean :2.8 Mean :1.717 Mean :2.158 Mean :1.906
## 3rd Qu.:3.0 3rd Qu.:2.000 3rd Qu.:3.000 3rd Qu.:3.000
## Max. :4.0 Max. :3.000 Max. :4.000 Max. :4.000
## NA's :1000 NA's :913 NA's :986 NA's :973
## GENE_PROBLEMES_A21 GENE_PROBLEMES_A22 GENE_PROBLEMES_A23 GENE_PROBLEMES_A24
## Min. :1.000 Min. :1.000 Min. :1.000 Min. :1.000
## 1st Qu.:2.000 1st Qu.:1.000 1st Qu.:1.000 1st Qu.:2.000
## Median :2.000 Median :2.000 Median :2.000 Median :2.000
## Mean :2.444 Mean :1.842 Mean :1.778 Mean :2.056
## 3rd Qu.:3.000 3rd Qu.:2.000 3rd Qu.:2.000 3rd Qu.:2.000
## Max. :4.000 Max. :4.000 Max. :3.000 Max. :3.000
## NA's :978 NA's :986 NA's :969 NA's :951
## GENE_PROBLEMES_A25 RECENCE_PROBLEMES_A1 RECENCE_PROBLEMES_A2
## Min. :1.000 Min. :1.000 Min. :1.000
## 1st Qu.:1.000 1st Qu.:2.750 1st Qu.:2.000
## Median :2.000 Median :3.000 Median :3.000
## Mean :1.843 Mean :3.375 Mean :3.529
## 3rd Qu.:2.000 3rd Qu.:4.000 3rd Qu.:5.000
## Max. :3.000 Max. :7.000 Max. :7.000
## NA's :922 NA's :965 NA's :971
## RECENCE_PROBLEMES_A3 RECENCE_PROBLEMES_A4 RECENCE_PROBLEMES_A5
## Min. :1.000 Min. :1.0 Min. :1.0
## 1st Qu.:2.000 1st Qu.:2.0 1st Qu.:3.5
## Median :3.000 Median :3.0 Median :4.0
## Mean :3.292 Mean :3.2 Mean :4.0
## 3rd Qu.:4.000 3rd Qu.:4.0 3rd Qu.:5.0
## Max. :7.000 Max. :6.0 Max. :7.0
## NA's :981 NA's :995 NA's :993
## RECENCE_PROBLEMES_A6 RECENCE_PROBLEMES_A7 RECENCE_PROBLEMES_A8
## Min. :1.000 Min. :2.000 Min. :1.000
## 1st Qu.:2.000 1st Qu.:2.000 1st Qu.:1.000
## Median :3.000 Median :3.000 Median :1.500
## Mean :3.346 Mean :3.154 Mean :2.333
## 3rd Qu.:4.000 3rd Qu.:4.000 3rd Qu.:4.000
## Max. :7.000 Max. :6.000 Max. :5.000
## NA's :979 NA's :979 NA's :993
## RECENCE_PROBLEMES_A9 RECENCE_PROBLEMES_A10 RECENCE_PROBLEMES_A11
## Min. :1.000 Min. :1.000 Min. :1.00
## 1st Qu.:3.000 1st Qu.:2.000 1st Qu.:2.00
## Median :4.000 Median :4.000 Median :3.00
## Mean :3.576 Mean :3.553 Mean :3.39
## 3rd Qu.:5.000 3rd Qu.:4.750 3rd Qu.:4.00
## Max. :6.000 Max. :7.000 Max. :7.00
## NA's :972 NA's :891 NA's :964
## RECENCE_PROBLEMES_A12 RECENCE_PROBLEMES_A13 RECENCE_PROBLEMES_A14
## Min. :1 Min. :1.0 Min. :1.00
## 1st Qu.:2 1st Qu.:2.0 1st Qu.:2.00
## Median :3 Median :3.0 Median :3.00
## Mean :3 Mean :3.5 Mean :3.52
## 3rd Qu.:4 3rd Qu.:4.5 3rd Qu.:5.00
## Max. :5 Max. :7.0 Max. :7.00
## NA's :998 NA's :993 NA's :980
## RECENCE_PROBLEMES_A15 RECENCE_PROBLEMES_A16 RECENCE_PROBLEMES_A17
## Min. :1.000 Min. :1.000 Min. :2.0
## 1st Qu.:2.000 1st Qu.:1.250 1st Qu.:2.0
## Median :3.000 Median :3.000 Median :3.0
## Mean :3.375 Mean :3.167 Mean :2.8
## 3rd Qu.:4.000 3rd Qu.:4.000 3rd Qu.:3.0
## Max. :7.000 Max. :7.000 Max. :4.0
## NA's :981 NA's :987 NA's :1000
## RECENCE_PROBLEMES_A18 RECENCE_PROBLEMES_A19 RECENCE_PROBLEMES_A20
## Min. :1.00 Min. :1.000 Min. :1.00
## 1st Qu.:3.00 1st Qu.:3.000 1st Qu.:2.00
## Median :4.00 Median :3.000 Median :3.50
## Mean :3.75 Mean :3.632 Mean :3.50
## 3rd Qu.:4.00 3rd Qu.:4.500 3rd Qu.:4.25
## Max. :7.00 Max. :6.000 Max. :7.00
## NA's :913 NA's :986 NA's :973
## RECENCE_PROBLEMES_A21 RECENCE_PROBLEMES_A22 RECENCE_PROBLEMES_A23
## Min. :1.000 Min. :1.000 Min. :2.000
## 1st Qu.:1.500 1st Qu.:2.000 1st Qu.:3.000
## Median :3.000 Median :3.000 Median :3.000
## Mean :2.963 Mean :3.053 Mean :3.694
## 3rd Qu.:3.500 3rd Qu.:3.500 3rd Qu.:5.000
## Max. :7.000 Max. :7.000 Max. :6.000
## NA's :978 NA's :986 NA's :969
## RECENCE_PROBLEMES_A24 RECENCE_PROBLEMES_A25 REPARATION_A1 REPARATION_A2
## Min. :2.000 Min. :1.000 Min. :1.000 Min. :1.000
## 1st Qu.:3.000 1st Qu.:2.000 1st Qu.:2.000 1st Qu.:2.000
## Median :4.000 Median :4.000 Median :4.000 Median :3.000
## Mean :3.982 Mean :3.627 Mean :3.263 Mean :3.182
## 3rd Qu.:5.000 3rd Qu.:5.000 3rd Qu.:4.750 3rd Qu.:5.000
## Max. :7.000 Max. :7.000 Max. :5.000 Max. :5.000
## NA's :951 NA's :922 NA's :967 NA's :972
## REPARATION_A3 REPARATION_A4 REPARATION_A5 REPARATION_A6 REPARATION_A7
## Min. :1.0 Min. :1.000 Min. :1.000 Min. :1.000 Min. :1.000
## 1st Qu.:2.0 1st Qu.:2.000 1st Qu.:1.500 1st Qu.:1.750 1st Qu.:2.000
## Median :3.5 Median :2.000 Median :3.000 Median :3.000 Median :2.000
## Mean :3.3 Mean :2.222 Mean :2.909 Mean :2.875 Mean :2.654
## 3rd Qu.:4.0 3rd Qu.:3.000 3rd Qu.:4.500 3rd Qu.:4.250 3rd Qu.:3.750
## Max. :5.0 Max. :4.000 Max. :5.000 Max. :5.000 Max. :5.000
## NA's :985 NA's :996 NA's :994 NA's :981 NA's :979
## REPARATION_A8 REPARATION_A9 REPARATION_A10 REPARATION_A11
## Min. :1.000 Min. :1.000 Min. :1.000 Min. :1.000
## 1st Qu.:1.000 1st Qu.:1.000 1st Qu.:2.000 1st Qu.:1.000
## Median :2.000 Median :2.000 Median :4.000 Median :2.000
## Mean :2.667 Mean :2.727 Mean :3.372 Mean :2.488
## 3rd Qu.:4.250 3rd Qu.:4.000 3rd Qu.:5.000 3rd Qu.:3.000
## Max. :5.000 Max. :5.000 Max. :5.000 Max. :5.000
## NA's :993 NA's :972 NA's :892 NA's :964
## REPARATION_A12 REPARATION_A13 REPARATION_A14 REPARATION_A15 REPARATION_A16
## Min. :2.000 Min. :1.00 Min. :1.00 Min. :1.000 Min. :1.000
## 1st Qu.:2.000 1st Qu.:2.00 1st Qu.:2.00 1st Qu.:2.000 1st Qu.:2.000
## Median :3.000 Median :3.50 Median :3.00 Median :3.000 Median :3.000
## Mean :3.333 Mean :3.25 Mean :3.00 Mean :2.833 Mean :2.824
## 3rd Qu.:4.750 3rd Qu.:5.00 3rd Qu.:4.25 3rd Qu.:4.000 3rd Qu.:4.000
## Max. :5.000 Max. :5.00 Max. :5.00 Max. :5.000 Max. :5.000
## NA's :999 NA's :993 NA's :981 NA's :981 NA's :988
## REPARATION_A17 REPARATION_A18 REPARATION_A19 REPARATION_A20 REPARATION_A21
## Min. :3.0 Min. :1.000 Min. :1.000 Min. :1.000 Min. :1.000
## 1st Qu.:3.0 1st Qu.:2.000 1st Qu.:2.000 1st Qu.:2.000 1st Qu.:1.750
## Median :3.5 Median :2.000 Median :2.000 Median :3.000 Median :3.000
## Mean :3.5 Mean :2.685 Mean :2.941 Mean :3.258 Mean :3.167
## 3rd Qu.:4.0 3rd Qu.:4.000 3rd Qu.:4.000 3rd Qu.:5.000 3rd Qu.:5.000
## Max. :4.0 Max. :5.000 Max. :5.000 Max. :5.000 Max. :5.000
## NA's :1001 NA's :913 NA's :988 NA's :974 NA's :981
## REPARATION_A22 REPARATION_A23 REPARATION_A24 REPARATION_A25
## Min. :1.000 Min. :1.000 Min. :1.000 Min. :1.000
## 1st Qu.:2.000 1st Qu.:2.750 1st Qu.:2.000 1st Qu.:2.000
## Median :2.000 Median :3.000 Median :3.000 Median :3.000
## Mean :2.611 Mean :3.278 Mean :2.907 Mean :3.277
## 3rd Qu.:3.000 3rd Qu.:4.250 3rd Qu.:4.000 3rd Qu.:5.000
## Max. :5.000 Max. :5.000 Max. :5.000 Max. :5.000
## NA's :987 NA's :969 NA's :951 NA's :922
## COHABITATION_DYSFONCTION_A1 COHABITATION_DYSFONCTION_A2
## Min. :1.000 Min. :1.000
## 1st Qu.:2.000 1st Qu.:1.000
## Median :2.000 Median :2.000
## Mean :2.733 Mean :2.385
## 3rd Qu.:4.000 3rd Qu.:4.000
## Max. :6.000 Max. :5.000
## NA's :990 NA's :992
## COHABITATION_DYSFONCTION_A3 COHABITATION_DYSFONCTION_A4
## Min. :1.000 Min. :1
## 1st Qu.:2.000 1st Qu.:2
## Median :2.000 Median :3
## Mean :2.571 Mean :3
## 3rd Qu.:3.000 3rd Qu.:4
## Max. :5.000 Max. :5
## NA's :998 NA's :999
## COHABITATION_DYSFONCTION_A5 COHABITATION_DYSFONCTION_A6
## Min. :1.0 Min. :1.000
## 1st Qu.:1.0 1st Qu.:1.500
## Median :1.0 Median :2.000
## Mean :1.4 Mean :2.364
## 3rd Qu.:2.0 3rd Qu.:2.500
## Max. :2.0 Max. :6.000
## NA's :1000 NA's :994
## COHABITATION_DYSFONCTION_A7 COHABITATION_DYSFONCTION_A8
## Min. :1.000 Min. :1.000
## 1st Qu.:1.000 1st Qu.:1.000
## Median :1.000 Median :1.000
## Mean :1.533 Mean :1.833
## 3rd Qu.:2.000 3rd Qu.:2.500
## Max. :3.000 Max. :4.000
## NA's :990 NA's :999
## COHABITATION_DYSFONCTION_A9 COHABITATION_DYSFONCTION_A10
## Min. :1.000 Min. :1.0
## 1st Qu.:1.000 1st Qu.:1.0
## Median :2.000 Median :2.0
## Mean :2.333 Mean :2.5
## 3rd Qu.:3.000 3rd Qu.:3.0
## Max. :6.000 Max. :6.0
## NA's :987 NA's :967
## COHABITATION_DYSFONCTION_A11 COHABITATION_DYSFONCTION_A12
## Min. :1.000 Min. :1.0
## 1st Qu.:1.000 1st Qu.:2.5
## Median :2.000 Median :4.0
## Mean :1.792 Mean :3.0
## 3rd Qu.:2.000 3rd Qu.:4.0
## Max. :3.000 Max. :4.0
## NA's :981 NA's :1002
## COHABITATION_DYSFONCTION_A13 COHABITATION_DYSFONCTION_A14
## Min. :2.0 Min. :1.000
## 1st Qu.:2.0 1st Qu.:1.000
## Median :2.0 Median :2.000
## Mean :2.4 Mean :1.727
## 3rd Qu.:3.0 3rd Qu.:2.000
## Max. :3.0 Max. :4.000
## NA's :1000 NA's :994
## COHABITATION_DYSFONCTION_A15 COHABITATION_DYSFONCTION_A16
## Min. :1.0 Min. :1.000
## 1st Qu.:1.0 1st Qu.:1.000
## Median :1.5 Median :2.000
## Mean :1.6 Mean :1.875
## 3rd Qu.:2.0 3rd Qu.:2.250
## Max. :3.0 Max. :3.000
## NA's :995 NA's :997
## COHABITATION_DYSFONCTION_A17 COHABITATION_DYSFONCTION_A18
## Mode:logical Min. :1.000
## NA's:1005 1st Qu.:1.000
## Median :2.000
## Mean :2.154
## 3rd Qu.:3.000
## Max. :6.000
## NA's :953
## COHABITATION_DYSFONCTION_A19 COHABITATION_DYSFONCTION_A20
## Min. :1 Min. :1.000
## 1st Qu.:1 1st Qu.:1.000
## Median :2 Median :2.000
## Mean :2 Mean :1.909
## 3rd Qu.:2 3rd Qu.:2.500
## Max. :6 Max. :4.000
## NA's :996 NA's :994
## COHABITATION_DYSFONCTION_A21 COHABITATION_DYSFONCTION_A22
## Min. :1.000 Min. :1.000
## 1st Qu.:2.000 1st Qu.:1.500
## Median :2.000 Median :3.000
## Mean :2.444 Mean :2.727
## 3rd Qu.:2.000 3rd Qu.:3.500
## Max. :5.000 Max. :6.000
## NA's :996 NA's :994
## COHABITATION_DYSFONCTION_A23 COHABITATION_DYSFONCTION_A24
## Min. :1.000 Min. :1.000
## 1st Qu.:1.000 1st Qu.:1.000
## Median :1.000 Median :1.000
## Mean :1.444 Mean :1.913
## 3rd Qu.:2.000 3rd Qu.:3.000
## Max. :3.000 Max. :6.000
## NA's :996 NA's :982
## COHABITATION_DYSFONCTION_A25 INT_REPARATION_A1 INT_REPARATION_A2
## Min. :1.00 Min. :1.000 Min. :1.000
## 1st Qu.:1.00 1st Qu.:4.000 1st Qu.:2.000
## Median :2.00 Median :4.000 Median :4.000
## Mean :2.00 Mean :4.048 Mean :3.267
## 3rd Qu.:2.25 3rd Qu.:5.000 3rd Qu.:5.000
## Max. :4.00 Max. :5.000 Max. :5.000
## NA's :973 NA's :984 NA's :990
## INT_REPARATION_A3 INT_REPARATION_A4 INT_REPARATION_A5 INT_REPARATION_A6
## Min. :1.00 Min. :4 Min. :2.0 Min. :1.000
## 1st Qu.:1.25 1st Qu.:4 1st Qu.:3.5 1st Qu.:1.750
## Median :2.50 Median :4 Median :4.5 Median :3.000
## Mean :2.80 Mean :4 Mean :4.0 Mean :3.125
## 3rd Qu.:4.00 3rd Qu.:4 3rd Qu.:5.0 3rd Qu.:5.000
## Max. :5.00 Max. :4 Max. :5.0 Max. :5.000
## NA's :995 NA's :1004 NA's :1001 NA's :997
## INT_REPARATION_A7 INT_REPARATION_A8 INT_REPARATION_A9 INT_REPARATION_A10
## Min. :1.000 Min. :4.0 Min. :1.00 Min. :1.000
## 1st Qu.:2.000 1st Qu.:4.0 1st Qu.:1.75 1st Qu.:2.000
## Median :3.000 Median :5.0 Median :3.50 Median :4.000
## Mean :3.143 Mean :4.6 Mean :3.25 Mean :3.556
## 3rd Qu.:4.500 3rd Qu.:5.0 3rd Qu.:5.00 3rd Qu.:4.500
## Max. :5.000 Max. :5.0 Max. :5.00 Max. :5.000
## NA's :998 NA's :1000 NA's :993 NA's :942
## INT_REPARATION_A11 INT_REPARATION_A12 INT_REPARATION_A13 INT_REPARATION_A14
## Min. :1.0 Min. :4.000 Min. :2.00 Min. :1
## 1st Qu.:3.0 1st Qu.:4.000 1st Qu.:3.25 1st Qu.:4
## Median :4.0 Median :4.000 Median :4.50 Median :5
## Mean :3.5 Mean :4.333 Mean :4.00 Mean :4
## 3rd Qu.:4.0 3rd Qu.:4.500 3rd Qu.:5.00 3rd Qu.:5
## Max. :5.0 Max. :5.000 Max. :5.00 Max. :5
## NA's :995 NA's :1002 NA's :999 NA's :996
## INT_REPARATION_A15 INT_REPARATION_A16 INT_REPARATION_A17 INT_REPARATION_A18
## Min. :1.00 Min. :1.000 Min. :3.00 Min. :1.000
## 1st Qu.:2.75 1st Qu.:2.000 1st Qu.:3.25 1st Qu.:2.750
## Median :4.00 Median :2.000 Median :3.50 Median :4.000
## Mean :3.50 Mean :2.714 Mean :3.50 Mean :3.438
## 3rd Qu.:4.25 3rd Qu.:3.500 3rd Qu.:3.75 3rd Qu.:5.000
## Max. :5.00 Max. :5.000 Max. :4.00 Max. :5.000
## NA's :997 NA's :998 NA's :1003 NA's :973
## INT_REPARATION_A19 INT_REPARATION_A20 INT_REPARATION_A21 INT_REPARATION_A22
## Min. :3.000 Min. :1.000 Min. :3.000 Min. :4.00
## 1st Qu.:4.000 1st Qu.:2.500 1st Qu.:4.000 1st Qu.:4.75
## Median :4.000 Median :4.500 Median :5.000 Median :5.00
## Mean :4.125 Mean :3.714 Mean :4.455 Mean :4.75
## 3rd Qu.:4.250 3rd Qu.:5.000 3rd Qu.:5.000 3rd Qu.:5.00
## Max. :5.000 Max. :5.000 Max. :5.000 Max. :5.00
## NA's :997 NA's :991 NA's :994 NA's :1001
## INT_REPARATION_A23 INT_REPARATION_A24 INT_REPARATION_A25 RRAISON_UTIL_PB
## Min. :1.000 Min. :1.000 Min. :1.000 Min. :1.000e+00
## 1st Qu.:2.000 1st Qu.:2.000 1st Qu.:2.500 1st Qu.:6.000e+00
## Median :4.000 Median :4.000 Median :4.000 Median :1.060e+02
## Mean :3.214 Mean :3.056 Mean :3.667 Mean :9.502e+08
## 3rd Qu.:4.750 3rd Qu.:4.000 3rd Qu.:5.000 3rd Qu.:3.548e+04
## Max. :5.000 Max. :5.000 Max. :5.000 Max. :7.081e+10
## NA's :991 NA's :987 NA's :966 NA's :819
## RSOLUTION_ALTERNATIVE_PB RIMPACT_PB INTENTION_REMPLACEMENT
## Min. : 1.00 Length:1005 Min. :1.000
## 1st Qu.: 3.00 Class :character 1st Qu.:3.000
## Median : 6.00 Mode :character Median :4.000
## Mean : 40.64 Mean :4.283
## 3rd Qu.: 6.75 3rd Qu.:6.000
## Max. :651.00 Max. :7.000
## NA's :819
## RECONTACT EMAIL_2 poids
## Min. :1.000 Length:1005 Min. :31.13
## 1st Qu.:1.000 Class :character 1st Qu.:41.91
## Median :1.000 Mode :character Median :50.27
## Mean :1.273 Mean :49.49
## 3rd Qu.:2.000 3rd Qu.:55.24
## Max. :2.000 Max. :75.07
##
Au vu de ce summary, on remarque que certaines variables sont concidérées comme étant numériques, mais leurs interprétations avec le summary n’ont pas de sens, il faut donc changer leur type, afin d’avoir des informations sur celles-ci bien plus claires et exploitables. On remarque aussi qu’une variable contient des données manquantes, il s’agit de COHABITATION_DYSFONCTION_A17, qui correspond au temps de cohabitation avec le dysfonctionnement : Problème de vibreur. Dans la suite du traitement de la base, il sera donc préférable de la supprimer.
Dans la base de données il y a 6 qui sont catégorielles (qualitatives). Les variables catégorielles représentent des catégories ou des groupes distincts et prennent un nombre limité de valeurs distinctes (niveaux). Il y a donc :
Le genre (SEXE) : variable catégorielle avec deux niveaux (masculin et féminin).
Les départements (DEP) : variable catégorielle, car elle prend des valeurs distinctes représentant les différentes divisions administratives.
Les régions (UDA9) : variable catégorielle, car elle représente des régions distinctes.
L’habitat (HAB7) : les catégories sont qualitatives et décrivent des types de zones de résidence.
L’activité professionelle (INACTIFS ou QACTIFS) : l’activité professionnelle représente les différentes occupations ou statuts professionnels des individus, ses catégories sont distinctes et qualitatives.
Les catégories socio-professionelles (CSP9 ET CSP5) : variables catégorielles, car elles classent les individus en groupes distincts basés sur leur profession, leur statut professionnel, etc.
Le niveau d’études (NIVETUDES) : les catégories décrivent des niveaux d’éducation distincts.
La maitrîse d’internet (APPETENCEDIGIT) : les catégories décrivent des niveaux de compétence distincts et qualitatifs.
La qualification de l’ancien téléphone (QUALIFANCIENTEL) : les catégories décrivent des types ou des états de téléphones distincts.
L’usage principal du smartphone (CONTEXTE_USAGE_SMARTPHONE) : variable catégorielle, car elle décrit des catégories d’utilisation.
La marque du mobile principal (MARQMOB1) : variable catégorielle, car elle représente des catégories de marques.
Le système d’exploitation (OS) : variable catégorielle, car elle représente différents systèmes d’exploitation.
L’obtention du smartphone (ACQUISITIONTEL) : les catégories décrivent des moyens distincts d’acquisition du téléphone.
On les tranforme donc en facteurs afin de faciliter l’étude de ces variables et leurs visualisations pour plus tard. Ces distinctions sont importantes pour choisir les méthodes d’analyse appropriées et pour coder correctement les données dans R. On obtient le summary suivant pour les variables catégorielles listées, qui est bien compréhensible et exploitable que le premier summary obtenu pour ces mêmes variables.
## SEXE DEP UDA9 HAB7 INACTIFS QACTIF
## 1:466 59 : 63 1 :176 1:160 3 :239 17 :149
## 2:539 69 : 37 9 :124 2:162 5 : 53 18 : 91
## 75 : 37 8 :121 3: 65 6 : 47 7 : 90
## 62 : 34 6 :117 4: 91 1 : 40 14 : 53
## 13 : 32 7 :113 5: 52 4 : 28 16 : 51
## 33 : 29 2 : 97 6:316 (Other): 34 (Other):170
## (Other):773 (Other):257 7:159 NA's :564 NA's :401
## CSP9 CSP5 NIVETUDES APPETENCEDIGIT QUALIFANCIENTEL
## 7 :239 1:308 1:176 Maitrise basique :202 1:913
## 5 :200 2:296 2:322 Maitrise expert :224 2: 75
## 3 :150 3:239 3:194 Maitrise intermédiaire:540 3: 17
## 4 :121 4: 81 4:120 Maitrise limitée : 39
## 6 : 91 5: 81 5:128
## 8 : 81 6: 20
## (Other):123 7: 45
## CONTEXTE_USAGE_SMARTPHONE MARQMOB1 OS ACQUISITIONTEL
## 1 :810 9 :352 1 :291 3 :719
## 2 : 10 1 :291 2 :652 1 :170
## 3 :148 12 :141 3 : 12 4 : 60
## NA's: 37 6 : 57 4 : 13 5 : 8
## 13 : 45 NA's: 37 6 : 5
## (Other): 82 (Other): 6
## NA's : 37 NA's : 37
Le graphe intéractif (affiche le numéro de la colonne et le nombre de valeurs manquantes lorsqu’on passe notre curseur sur un point) ci-dessous permet de visualiser le nombre de valeurs manquantes pour chaques colonnes de notre jeu de données :
## [1] "Noms des colonnes avec 1005 valeurs manquantes :"
## [1] "COHABITATION_DYSFONCTION_A17"
## [1] "Noms des colonnes avec plus de 1000 valeurs manquantes :"
## [1] "GENE_PROBLEMES_A17" "RECENCE_PROBLEMES_A17"
## [3] "REPARATION_A17" "COHABITATION_DYSFONCTION_A5"
## [5] "COHABITATION_DYSFONCTION_A12" "COHABITATION_DYSFONCTION_A13"
## [7] "COHABITATION_DYSFONCTION_A17" "INT_REPARATION_A4"
## [9] "INT_REPARATION_A5" "INT_REPARATION_A8"
## [11] "INT_REPARATION_A12" "INT_REPARATION_A17"
## [13] "INT_REPARATION_A22"
Le graphe intéractif (affiche le numéro de l’observation et le nombre de valeurs manquantes lorsqu’on passe notre curseur sur un point) ci-dessous permet de visualiser le nombre de valeurs manquantes pour chaques lignes de notre jeu de données :
## [1] "Numéros des observations avec 139 valeurs manquantes :"
## 250 335 394 479 481 736
## 247 331 388 471 473 722
Remarque : Au vu des graphes obtenus, le mieux est de commencer par supprimer les variables contenant 1005 valeurs manquantes et les observations contenant 163 valeurs manquantes, car leur présence n’a peu d’intérêt dans la base de données. En tout c’est pas moins de 127329 données manquantes dans la base de données. Soit 77% de données manquantes dans toute la base.
On supprime la variable COHABITATION_DYSFONCTION_A17 de notre jeu de données car elle ne contient aucunes réponses.
# data[,"COHABITATION_DYSFONCTION_A17"]<-list(NULL)
# Finalement il a été vu que la suppression de cette variable n'était pas nécessaire, on la garde donc dans notre jeu de données !
En variable redondantes, j’en ai listé 3 : Hommes_Age et Femmes_Age, elles contiennent de nombreuses valeurs manquantes car elles dependent du genre de la personne mais la colonne Tag5, fait déjà tout le travail en regroupant ces deux mêmes colonnes en une seule. On peut donc les supprimer pour alléger la base de données. L’autre colonne est celle de l’activité professionelle, elle précise si l’activité professionelle de la personne est active (1) ou inactive (2), sauf que les colonnes qui suivent précisent le niveau d’inactivité (INACTIFS) ou d’activité (QACTIFS). La colonne ACTIVITE peut donc être supprimée. Avant de les supprimer, il a été vérifié en amont que les informations qu’elles contiennent sont bien renseignées en totalité dans les autres colonnes listées.
# On supprime donc ces variables :
data[,c("Hommes_Age","Femmes_Age","ACTIVITE")]<-list(NULL)
Le but de cette étape est de passer de ce type de représentation : “Un ordinateur portable,Une tablette tactile,Un smartphone,” à ce type de représentation : “050602”. Afin de faciliter la datavisualisation et l’étude de cette variable. Après avoir réalisé ce changement, on obtient la colonne du dessous :
## REQUIPEMENT
## 1 Un ordinateur portable,Une tablette tactile,Un smartphone,
## 2 Un ordinateur portable,Un ordinateur fixe,Un smartphone,Une tablette tactile,
## 3 Un smartphone,Une tablette tactile,Un ordinateur portable,
## 4 Un smartphone,Une tablette tactile,Un ordinateur portable,Un ordinateur fixe,
## 5 Un ordinateur portable,Un smartphone,
## 6 Un ordinateur fixe,Un ordinateur portable,Un smartphone,
## REQUIPEMENT_NUM
## 1 050602
## 2 05040206
## 3 020605
## 4 02060504
## 5 0502
## 6 040502
data$RIDENTIFICATION_PROBLEMES <- sapply(data$RIDENTIFICATION_PROBLEMES, function(x) gsub("\\.", "", x))
Données avant formattage :
## [1] "27." "19." "27." "27." "251802101911"
## [6] "27."
Données après formattage :
## [1] "27" "19" "27" "27" "251802101911"
## [6] "27"
data$RETAT_ANCIEN_TEL <- sapply(data$RETAT_ANCIEN_TEL, function(x) gsub("\\.", "", x))
Données avant formattage :
## [1] "020504." "08." "01." "07050806" "03." "03."
Données après formattage :
## [1] "020504" "08" "01" "07050806" "03" "03"
La variable RMOTIV_SMART est représentée de 3 manières différentes, en terme de valeurs : ex : “51.”, “3..” et “…”. Il faut donc la formatter afin d’avoir une lecture plus simplifiée et compréhensible de la valeur. La valeur “51.” correspond à un choix multiple, au vue du formattage des autres variables à choix multiples dans la base de données on peut transformer ce “51.” en un “0501”. Pour la valeur “3.”, le formattage serait le même afin d’obtenir un “03”. Et pout la valeur “…”, qui correpondrait à pas de réponses, et donc à une valeur manquante, le mieux est de mettre la raison numéro 6 , qui correspond à la motivation “Autre” dans le dictionnaire des données, correspondant à la variable. Elle passerait donc de “…” à “06”
On commence tout d’abord par enlever les points pour faciliter le formatage de la variable pour la suite :
data$RMOTIV_SMART <- sapply(data$RMOTIV_SMART, function(x) gsub("\\.", "", x))
# ex : "51." devient "51"
# ex : "3." devient "3"
# ex : "..." devient "" (une chaine de caractères vides)
Données avant formattage :
## [1] "51." "5.." "5.." "1.." "..."
Données après formattage :
## [1] "51" "5" "5" "1" ""
Avant de réaliser le programme finale, je fais des premiers tests, sur un échantillon de valeurs de la variable, et je prends les lignes 28 à 32, qui contiennet les 3 types de représentations différentes :
################### TEST
ligne <- data$RMOTIV_SMART[28:32] # ligne 28 à 32 qui donne : "51" "5" "5" "1" ""
variable = list()
for (i in 1:length(ligne)){
choix <- ligne[i]
if (choix==""){
choix="06" # si la valeur vaut "" on met la raison "06" comme nouvelle valeur
}
else {
# Diviser la chaîne en un vecteur de caractères : On passe de "51" à "5" et "1"
choix <- unlist(strsplit(choix, split = ""))
# Insérer un "0" entre chaque paire de caractères et un 0 au début de la chaine de caractères
choix <- paste(choix, collapse = "0")
choix <- paste0("0",choix)
}
variable[i]=choix
}
# Afficher la ligne finale
print(variable)
## [[1]]
## [1] "0501"
##
## [[2]]
## [1] "05"
##
## [[3]]
## [1] "05"
##
## [[4]]
## [1] "01"
##
## [[5]]
## [1] "06"
J’ai bien obtenu ce que je voulais et dans le format souhaité, je réalise donc le programme finale qui va s’appliquer à toutes les valeurs de la variable :
################### PROGRAMME
RMOTIV_SMART <- data$RMOTIV_SMART
variable = list()
for (i in 1:length(RMOTIV_SMART)){
choix <- RMOTIV_SMART[i]
if (choix==""){
choix="06"
}
else {
choix <- unlist(strsplit(choix, split = ""))
choix <- paste(choix, collapse = "0")
choix <- paste0("0",choix)
}
variable[i]=choix
}
head(variable)
## [[1]]
## [1] "03"
##
## [[2]]
## [1] "01"
##
## [[3]]
## [1] "04"
##
## [[4]]
## [1] "01"
##
## [[5]]
## [1] "03"
##
## [[6]]
## [1] "03"
# Le type de la variable est sous forme de liste, on le change donc sous forme de charactères
n=length(variable)
RMOTIV_SMART_FORM <- c()
for (i in 1:n){
RMOTIV_SMART_FORM[i]<- variable[[i]]
}
# Ajout de cette nouvelle colonne que l'on nomme "RMOTIV_SMART_FORM" au dataframe, après la colonne RMOTIV_SMART
data <- add_column(data, "RMOTIV_SMART_FORM" = RMOTIV_SMART_FORM, .after = "RMOTIV_SMART")
print(head(data[, c("RMOTIV_SMART", "RMOTIV_SMART_FORM")],6))
## RMOTIV_SMART RMOTIV_SMART_FORM
## 1 3 03
## 2 1 01
## 3 4 04
## 4 1 01
## 5 3 03
## 6 3 03
Aprés avoir formattée la variable, on obtient la colonne de droite :
## RRAISON_UTIL_PB RRAISON_UTIL_PB_FORM
## 1 <NA> 14
## 2 <NA> 14
## 3 <NA> 14
## 4 <NA> 14
## 5 8050601 08050601
## 6 <NA> 14
Aprés avoir formatter la variable, on obtient la colonne de droite :
## RSOLUTION_ALTERNATIVE_PB RSOLUTION_ALTERNATIVE_PB_FORM
## 1 <NA> 08
## 2 <NA> 08
## 3 <NA> 08
## 4 <NA> 08
## 5 6 06
## 6 <NA> 08
data$RIMPACT_PB <- sapply(data$RIMPACT_PB, function(x) gsub("\\.", "", x))
# ex : "51." devient "51"
# ex : ".." devient " "
Données avant formattage :
## [1] ".." "15." ".." ".." "15." ".."
Données après formattage :
## [1] "" "15" "" "" "15" ""
Création d’une fonction Count_VCM (VCM = Variable à choix multiples) permettant d’afficher pour les variables à choix multiples UNIQUEMENT, le nombre de fois où chaque modalité est renseignée dans toute la colonne. Elle prend en entrée une variable à choix multiple (variable), issue de la base de données, et son nombre total de modalités (nb_de_modalites), et renvoit une matrice indiquant en ligne 1 le numéro de la modalité, et en ligne 2 le nombre de fois où les répondants l’on choisit.
On teste ensuite cette fonction sur la variable REQUIPEMENT_NUM créée précédemment, qui représente les types d’équipements de chaques individus de la base, et cela nous donne la matrice suivante :
## [,1] [,2] [,3] [,4] [,5] [,6]
## [1,] 1 2 3 4 5 6
## [2,] 182 968 0 472 840 560
Grâce à la fonction on peut représenter par la suite l’histogramme suivant, qui est intéractif :
Pour les semaines à venir, il sera préférable de travailler sur cette nouvelle base de données pour laquelle on a formatté de nombreuses variables. On l’exporte donc :
saveRDS(data, file = "data/data.rds")